潘悟云从语言学角度评论与解读Nature首篇大陆语言学文章

潘悟云语标 2021-03-18

原文转载自公众号汉语堂

4月25日《语言谱系证据支持汉藏语系在新石器时代晚期起源于中国北方》发表于《自然》主刊。阅读全文译文戳这里：全文翻译| Nature首篇大陆语言学研究：汉藏语起源于新石器晚期中国北方的谱系发生学证据

作者按：

我是这篇文章的第三作者。文章的第一作者是张梦翰，原是我的硕士生和博士生。他邀请我参加到这篇文章的作者群当中来，是考虑到我是一个语言学家，而且是一位历史比较语言学家。所以，我与其说是这篇文章的作者，还不如说是这篇文章的语言学顾问。因为是第三作者，而且是一位语言学的作者，我就有义务向大家介绍这篇文章与语言学关系。

一、东亚语言中六个语言集团的分类。

1、李方桂认为汉语族、藏缅语族、侗台语族、苗瑶语族构成汉藏语系。

2、20世纪的70年代，白保罗、马提索夫提出的汉藏语系仅包括汉语族和藏缅语族，他们把侗台语、苗瑶语与南岛语合并成澳泰语系。汉藏语系与澳泰语系之间没有发生学关系。

3、郑张尚芳同意李方桂的汉藏语划分，同时再加上南岛、南亚，构成华澳语系。

4、孙宏开《汉藏语语音和词汇》中的汉藏语系包括汉语、藏缅语、侗台语、苗瑶语、南岛语、南亚语六个语言集团。实际上与郑张尚芳的分类相同，只不过名称不一样。

5、我们的课题同意国内民族语专家的意见，认为这六大语言集团有共同的上位语言集团。不过认为汉语族和藏缅语族从这个上位的语言集团中分化出来的时间更晚，他们的祖先在6000年前共同生活在黄河的中上游，我们把它叫做汉藏语系。其他几个语族生活在南方。

我们所以同意把汉藏语系限于汉语族与藏缅语族，主要的依据是他们的核心词汇有内部的一致性。如第一人称都是ŋa之类的读音，太阳都是ni之类的读音，其他几个语族的读音很不相同。数词在汉藏语中有相同的来源，其他各语族中都不相同，或者都是借词。说明汉藏语系的人与其他几个语族分化开来以后，才出现数词。

白保罗Austro-Thai Language and Culture中将侗台语与南岛语进行历史比较，建立了两者之间的发生学关系，他叫作澳泰语系（Austro-Thai）。但是我们只要把这些比较的例子也与上古汉语做同样的比较，不难发现汉语与他们之间也有发生性关系。由于上古汉语研究的滞后，这种关系一直被掩盖着。

但是，侗台语、苗瑶语、南岛语、南亚语之间到底构成什么关系？既然有了汉藏语系的名称，在它上位的更大的语言集团叫什么名称？这些都需要语言学家们共同讨论。

二、汉藏语系的再分类。

1、马提索夫，认为汉藏语的祖语（原始汉藏语）起源于大约四千至六千年前的中国北方；2、van Driem，认为原始汉藏语起源于九千年前的中国西南部或印度东北部。

他们的观点，主要来自历史比较。但是分化时间和地点的确定，恰巧是历史比较法的软肋，所以他们关于汉藏语分化时间和地点的观点，基本上还是一种猜想，这就是他们争执不下的一个重要原因。贝叶斯系统发生学分析方法（Bayesianphylogenetic method），使分化的时间和地点从猜想走向实证。这也就是罗仁地的评论中为什么说我们的文章“有望解决这一难题。”

所以本课题的主要贡献，一是断定汉藏语首先分化为汉语族和藏缅语族。二是断定汉藏语分化的时间在5800年前，地点在中国北方。

三、语言谱系树。

根据亲属语言之间的发生学关系做成语言谱系树，谱系树上最接近的语言之间有最密切的发生学关系。这是历史比较法的重要内容，也是本课题的最重要内容。有了这种谱系树，才能用贝叶斯的方法与谱系地理学（phylogeography）的方法推断分化的时间与地理位置。不过，传统历史比较法把各种同源词同等对待。我们的方法，认为不同的同源词，对于演化的贡献是不一样的，例如身体部位名称，马提索夫叫做核心词中的核心，比起人称代词来要重要的多，汉语的第三人称在先秦还没有出现。贝叶斯的方法通过计算对各类的核心词进行加权。所以我们不是简单地根据各种语言中的同源词画谱系树，而是根据加权以后的同源词画谱系数。所以我们画出来的谱系数，会更正确地反映语言之间的系统发生学关系。

所以，在建立谱系树之前，先要确定各语言中的同源词。各语言中同源词的认定是一项非常专业非常艰巨的工作，幸好有马提索夫的数据库可供使用。就像罗仁地在他的评论中指出的：“张梦翰及其同事采用了“汉藏语系词源辞典”（Sino-Tibetan
Etymological Dictionary and Thesaurus）在过去30年间搜集的同源词词条作为数据基础进行计算，而不像过去的研究那样选择了还未被证实为同源词族中的词随机进行比较，这一关键点使得张梦翰及其同事的研究结果大大区别于那些不够牢靠的结论。”我们很感谢马提索夫教授授权我们使用他的材料。这些材料中同源词的认定，是集中了全世界汉藏语专家的智慧和成果，特别是中国的民族语专家，如孙宏开、戴庆厦等众多先生，在同源词认定中起了巨大的作用。没有这些专家的共同努力，我们这篇文章是不可能写出来的，所以我们的工作可以说是借力于前人高大有力的肩膀。

为什么历史比较法要采用同源词的比较，而不是语法、类型的比较呢？早期的印欧历史比较法很注重词汇的形态比较，这是由于形态的借用比较困难。后来发现，形态也是会变动的，如最早的印欧语赫梯语就是缺乏形态的。所以后期的历史比较法，更注重通过语音和语义对应关系而确定的同源词之间的比较。在语言当中，类型容易变化，英语和汉语都是SVO，韩语和日语都是SOV。语言当中最稳定的就是核心词，我们正是根据Swadesh提出的前100个核心词作为比较的基础。

每一种语言都处在分化和接触的进程中，只不过在人类的早期阶段，地广人稀，人群迁徙以后，分化多于重新接触，历史比较法就是以此作为语言模型，这是印欧历史比较语言学取得成功的原因，并不是印欧语才有此特例。而且历史比较法并不排斥语言接触现象。汉语方言是互相影响最严重的语言之一，高本汉尚且能够用现代汉语方言通过历史比较构拟中古音。日本的吴音、汉音，安南音、高丽音，当然都是借词，他都用来作为历史比较的材料。他的历史比较成果大家都是公认的。

历史层次分析，是近年来中国语言学的热点之一。很多人把历史层次处理为汉语方言的共时分类。实际上，我们当时提出历史层次分析法，是把它视作对历史比较法的补充。当两种语言接触的时候，借词作为接触的产物，是可以用来做历史比较的，只不过要对它们进行历史层次分析法的处理。

汉语产生以后，不断地与其他民族语接触、影响，形成了带有混合语性质的现代汉语方言。这是我们团队今后的一个重要研究内容，而且，必然会伴随着方法的创新。

四、方法解读。

1、生物学上的方法能够不能够移植到语言学上来。

要知道，我们讨论的贝叶斯方法是一种数学模型。所谓的数学模型，只要符合它的条件，任何学科、任何现象，都是可以用的。生物学家说，一只老鼠加上两只老鼠等于三只老鼠。语言学家说，一个音节加上两个音节等于三个音节。他们都可以用1+2=3的方法。沈钟伟在伯克莱读书的时候，王士元先生把他送到生物学系去听课。他学了传染病的数学模型：一个人会把病传染给其他的人，另外一个人可以受传染，也可以不受传染，如果受传染了，就会去传染给另外的人。他认为音变的数学模型也是一样的，一个人发生了一种音变，就会去影响另外的人，另外的人可能受影响，也可能不受影响，如果受影响了就会再去影响其他的人。沈钟伟就把传染病的模型运用到上海话的一种音变，取得了非常好的研究结果。

　　 2、贝叶斯方法是否可靠。

　　有朋友说，贝叶斯派属于主观概率。一看到“主观”二字，容易使人联想起主观臆测，不科学，不靠谱。但是，恰巧是贝叶斯学派的出现，使概率论更新换代。概率论分频率学派和贝叶斯学派。概率有其客观因素，所以频率学派将概率定义为事件多次重复后发生的频率之极限。但是很多时候，概率无法通过多次试验得到，客观意义并不显而易见。贝叶斯学派则提出新的方法，根据对某种现象的经验观察，先提出一个置信度，根据新的信息，通过贝叶斯公式对置信度不断地进行修正。随着科学的进步，人们认识到贝叶斯的思路更符合科学研究的过程和人脑的思维模式，所以被广泛应用于与人工智能密切相关的机器学习中。

但是，对贝叶斯方法的原理，要真正地弄懂，需要具备数学知识。我想，很多的语言学家不会花大力气先去学习概率论。对这些朋友，实际上只需要提及一些事实就够了。

　　Swadesh认为人类的核心语义的词汇，其消失的速率是一样的，这样，根据这几种语言还保留的共有词汇的多少以及词汇消失的速率，我们就可以算出这些语言分化的年代。这种计算语言分化年代的方法叫做语言年代学(glottochronology)。但是，语言变化的速率在许多情况下是不同的，那些战争频仍、移民不断的人群，语言变化的速度要快得多。各种词汇的变化速度也是不一样的，高频词的变化速度会更慢一点，中古音完全相同的“拖他”，“拖”已经高化成thuo，但是高频词“他”还是读tha。

　　这个时候，一些生物学家在研究物种分化速率的时候，认识到物种分化速率可以一样，也可以不一样，这更接近于语言演化的模型。他们提出了贝叶斯系统发生学分析方法（Bayesianphylogenetic method），而且取得很好的研究成果。

　　这种方法很快就应用在语言学研究中了，最重要的有2009年德国马普进化所的研究者对南岛语用贝叶斯方法做出树形，发表在Science。2011年，德国马普进化所用同样的方法研究了语法结构变化，也发在Nature上。2003年和2012年马普进化所等单位的研究者，用这种方法对印欧各语言进行了分析，成果分别发表在Nature和Science上。参与这些语言研究中的语言学家一定是兼通数理与比较语言学的，对这种方法有很深的理解，否则他们是不可能计算出结果来的。他们认为贝叶斯方法是可靠的。 Nature、Science杂志社聘请几个专家对他们的论文进行评审，也会认为方法是可靠的，否则权威的杂志也不会轻易地予以刊登。金力、张梦翰是受了他们的启发，才用了这种方法去研究汉藏语。

当然，人家说方法可靠，不一定就是可靠，最好是我们自己把这个方法看懂，自己对它有所判断。不过把这个方法看懂谈何容易，我还是学过高等数学与概率论的，有些细节还弄不懂。不过，我会努力把这个方法用比较浅显的、文科专家也能看得懂的语言写出来，另文放到网上向大家介绍，让大家自己去判断。

另外，我们也看到国外语言学专业杂志上对贝叶斯方法用于语言起源研究的认可和讨论。2015年由加州大学伯克莱分校语言学系的研究者在语言学顶级期刊《Language》上发表了“Ancestry-constrained phylogenetic analysis supports theIndo-European steppe hypothesis”，里面所用的方法不仅与Science、Nature上相关研究中使用的方法一致，而且也和我们的方法类似。另外，在2018年，由国外著名语言学家建立的《Annual Review of Linguistics》杂志上，由耶鲁大学语言学系教授ClaireBowern发表了一篇题为“Computational Phylogenetics”的综述论文，里面系统讨论了贝叶斯系统发生学方法在语言研究中的应用，并肯定了这种方法的价值。

　　研究语言的起源，很像研究宇宙的起源，带有太多的不确定性，就像瞎子摸象，都在探索。每个人通过各种方法摸到其中的一部分，凑在一起，才是完整的图像。历史比较法，无法解决语言分化的具体年代和具体地点，贝叶斯方法提供了一种可能。但是这种方法不能够构拟原始语的读音，那是历史比较法的强项。

我们也有幸碰上计算机时代。我们在4核8线程的电脑上处理语言模型，每一个模型在计算时候，要迭代五千万次，共用20小时左右。6个不同的模型，每次跑两个模型，需要大约4天才全部跑完。如果不在计算机年代，这些都是无法想像的。

去年，国家“中华文明起源与早期发展综合研究” 颁示了考古资料对中华五千年文明以及中华文明多元一体格局的实证。这个项目指出，距今5800年前后，黄河、长江中下游以及西辽河等区域出现了文明起源迹象。我们的结论与考古学家们的考证不谋而合。

　　傅斯年创办中研院史语所，曾在集刊发刊词中大声疾呼，争东方学之正统在中国。我们现在不提正统，至少要提话语权，此的“权”不指权力，而指权威。所以这个“权”不是人家给的，而是我们自己创造的。汉藏语大部分在中国境内，在汉藏语的研究方面，中国人应该有无可置疑的话语权。最近，中共中央办公厅、国务院办公厅印发了《关于实施中华优秀传统文化传承发展工程的意见》，提出“巩固中华文明探源成果，正确反映中华民族文明史”的任务。我们的祖先，在这块土地上创造了灿烂的中华文明，我们语言学家在中华文明的探源中，应该做出不可替代的语言学贡献。

END

往期回顾

当语言学遇见Nature

语言学家热议《自然》汉藏语系起源！

全文翻译| Nature首篇大陆语言学研究：汉藏语起源于新石器晚期中国北方的谱系发生学证据

人类语言消亡简史

赵日新：语言不是任人打扮的小姑娘|大家小文

看《熊出没·原始时代》方言版，为方言走上银幕点赞 | 光明日报

论化学教父朱元璋之起名学对元素周期表的突出杰出不世出贡献

王莉宁：中国语言资源保护的理念和经验丨讲座回顾

于根元：新词新语是词汇这棵大树枝端的嫩芽 |大家小文

标哥开讲丨今天我们一起为这种中国文字庆祝生日！（音频+文字）